10. 标准差和方差简介

其他离散程度度量

五数概括法

在前面的部分,我们看了如何计算与 五数概括法 最小值 Q_1 Q_2 Q_3 最大值 )关联的值,以及与这些值关联的离散程度度量(**
值域 四分位差**)。

对于 非对称的 数据集,五数概括法和相应的箱形图是了解数据离散程度的很好方法。 尽管我在大多数时候更喜欢用直方图,但箱形图能更容易地比较两组或多组数据。 你将在本课结束时的练习中看到这一点。

方差和标准差

另外两个常用的 离散程度度量 方差 标准差 。乍看之下,方差和标准差会有点吓人。如果你不理解下面的方程,不用慌!在这部分,我先概述一下下一部分将包含的内容,但总的来说包括以下内容:

  1. 理解均值和方差是如何计算的。
  2. 凭直觉判断为什么均值和方差的计算有利于捕获数据的离散程度。
  3. 可能会使用这些值的字段。
  4. 我们为何使用特定数据集的标准差或方差,而非与五数概括法相关的值。

计算

我们使用以下方式计算方差:

\frac{1}{n}\sum\limits_{i=1}^n(x_i - \bar{x})^2

方差是 每个观察值与均值之差的平方值的平均数 。标准差是方差的平方根。因此,标准差的计算如下所示:

\sqrt{\frac{1}{n}\sum\limits_{i=1}^n(x_i - \bar{x})^2}

标准差是与我们的其余数据具有相同单位的度量,方差的单位是原始数据的平方。

再次说明, 此部分旨在作为后面许多部分内容的先导 。如果哪些信息在此第一遍不够清楚,别担心。你会在一个示例中使用薪资数据,演练这些计算并培养直觉判断能力。之后,我会接着通过一些上下文说明这些计算的重要性,以及你会在哪里看到它们!